دانلود مقاله ای در مورد OCR
این مقاله در مورد OCR و کاربرد ان می باشد.
OCR سرنام اصطلاحی است که صورت کامل آن در واژهنامه های انگلیسی به دو صورت آمده است:
1. Optical Character Recognition
2. Optical Character Reader
فرض کنید که ما متنی را روی کاغذ داریم و میخواهیم آن را وارد رایانه کنیم.
اولین روشی که به ذهن میرسد این است که متن را به تایپیست بدهیم تا با کامپیوتر تایپ کند.
اما آیا میشود عین همان متن را وارد رایانه بکنیم تا نیازی به تایپ نباشد؟البته دستگاه «اسکنر» میتواند تصویری از آن متن را وارد رایانه کند، تا اینجا بخشی از مشکل ما حل شده است.
اما رایانه که نه عقلی دارد و نه «زبان» میفهمد، نمیتواند حروف و کلمات را از هم تشخیص دهد.
مثلاً اگر از کامپیوتر بخواهیم به ما بگوید که در متن اسکنشده کلمة «علی» چند بار آمده است،
بیآنکه شرمنده شود، میگوید نمیتوانم تشخیص بدهم! در واقع این «تصویر دیجیتالشده» باید به «تصویر قابل پردازش» تبدیل شود.
موضوع اصلی OCR همین است.
در زبانهای دیگر، به ویژه زبانهایی که با حروف لاتینی نوشته میشوند، سالهاست که از OCR استفاده میشود.
اما در ایران تازه دو سه سالی است که به فکر استفاده از OCR در زبان فارسی افتادهایم.
و اما OCR چند نوع است: یا تایپی است یا دستنویس.
یعنی یا باید یک متن قبلاً تایپ شده را (مثل کتابها و روزنامههای چندین سال قبل، یا حتی متنی را که فایل تایپی آن موجود نیست و فقط پرینت آن را داریم) وارد رایانه کنیم، یا متن دستنویس را
متنهای دستنویس هم به دو صورت «گسسته» و «پیوسته» وجود دارند: متن «دستنویس پیوسته» مثل همان چیزهایی است که ما هرازگاهی که دلمان تنگ میشود روی کاغذ مینویسیم، یا یک نامه، یا یک قطعه شعر و ...
اما متن «دستنویس گسسته» همان نوشتههایی است که حروف آن جدا از هم و به صورت گسسته نوشته شدهاند،
مثل نام و نامخانوادگی که در فرمهای آزمون ثبتنام، به صورت هر حرف داخل یک کادر، نوشته میشوند.
قبل از اینکه به مراحل دیگر OCR بپردازیم، لازم است اندکی هم به مشکلات خط فارسی ــ یا در واقع ویژگیهای این خط ــ بپردازیم.
اول اینکه ما در فارسی حروف را به صورت چسبیده و پیوسته مینویسیم و این کار برای تشخیص حرف به حرف نوشته از سوی رایانه (که قرار است در مراحل بعدی آن را تایپ کند) بسیار مشکل است.
تصور کنید که همین کلمه ساده «است» را به حالتهای مختلف میشود نوشت: یکی برای «س» دندانه میگذارد، یکی نمیگذارد، یکی آن را میکشد و یکی نمیکشد و...
حالا اگر همین صورتهای مختلف «س» به «ت» هم بچسبند، تشخیص حروف برای ما انسانها هم سخت میشود، چه رسد به رایانه.
برای دانلود این مقاله اینجا را کلیک کنید.
برچسب ها:دانلود مقاله ای در مورد ادبیات فارسی دانلود مقاله ای در مورد OCR دانلود مقاله ای در مورد انواع OCR دانلود مقاله ای در مورد زبان فارسی و مشکلات ان دانلود مقاله ای در مورد OCR دست نویس دانلود مقاله ای در مورد OCR تایپی دانلود مقاله ای در مورد کاربرد OCR